1
CUDA 执行模型:主机与设备对比
AI032Lesson 3
00:00

CUDA 执行模型将你的计算机转变为一个高性能的异构系统。想象一位 总指挥(主机/中央处理器) 和一支 数千人的军队(设备/图形处理器)。总指挥负责处理复杂的逻辑和决策,而军队则同时执行大量重复的任务。

1. 架构差异

主机 是专为复杂控制流和串行任务优化的低延迟中央处理器。相反, 设备 是专为高吞吐量设计的图形处理器,包含成千上万的简单核心,能够同时在庞大的数据集上执行相同的指令。 是专为高吞吐量设计的图形处理器,包含成千上万的简单核心,能够同时在庞大的数据集上执行相同的指令。

2. 执行节奏

CUDA 程序以一系列阶段运行。执行从主机开始,处理“串行代码”。当程序遇到“并行内核”时,它会向设备启动一个 线程网格 。设备完成其大规模工作后,控制权返回主机。

主机(中央处理器)设备(图形处理器)串行代码并行内核(线程网格)串行代码

3. 性能专业化

该模型充分利用了两者的优点:中央处理器管理系统资源和复杂分支,而图形处理器执行 SPMD(单程序多数据) 逻辑,以并行方式处理数据元素。

main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>